NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍 NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍 关键词: AI,模型训练,Fast-dLLM v2,人工智能 自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。 来自主题: AI技术研报 6712 点击 2025-10-27 16:46